ارائه روشی برای برچسب گذاری اجزای کلام برای زبان فارسی

پایان نامه
چکیده

در پردازش زبان طبیعی سعی بر این است که کامپیوتر توانایی استخراج معنی از منابع زبان طبیعی را داشته باشد. به دلیل پیچیدگی پردازش زبان طبیعی و برای سادگی برخورد با چالش های پیش روی آن از ابزارهای مختلف و تخصصی برای مواجهه با هر یک از مشکلات استفاده شود. برچسب گذار نحوی اجزای کلام یکی از ابزارهایی است که می تواند به فرایند پردازش زبان طبیعی کمک کند. وظیفه برچسب گذار مشخص کردن نقش دستوری کلمات در جملاتی است که به عنوان ورودی به کامپیوتر داده می شود. این ابزار پایه ای می تواند در مترجم های ماشینی، غلط یاب ها، خلاصه سازهای متون و سایر موارد استفاده شود. در این پایان نامه ابتدا به معرفی روش های تعیین نقش دستوری برای زبان فارسی می پردازیم. برچسب گذاری به صورت عمده به دو گونه مبتنی بر قانون و آماری تقسیم می شود. در این پایان نامه به بررسی روش های تعیین نقش دستوری در زبان فارسی می پردازیم. با توجه به مشکلات برچسب گذاری مبتنی بر قانون عمده پیاده سازی های انجام شده در زبان فارسی، با استفاده از روش های آماری بوده اند. روش های آماری مدل مارکوف، مبتنی بر حافظه و تخمین احتمال بیشینه پرکاربردترین روش های آماری برای زبان فارسی هستند که سعی شده با انعکاس نتایج، مقایسه ای را بین آن ها انجام دهیم. در پایان نتایج بررسی ها نشان می دهد الگوریتم مدل مارکوف بیشترین اقبال را چه ازنظر تعداد استفاده چه ازنظر درصد موفقیت برای زبان فارسی دارا است. نکته قابل توجه در کارهای پیشین تمرکز بیشتر آن ها بر روی تعیین نقش دستوری کلمات ناشناخته است. برای این کار روش¬های پیش¬پردازش متن، تحلیل¬گر ساخت¬واژی و حدس برچسب کلمات ناشناخته مورد استفاده قرار گرفته بود. دراین بین کمتر اثری را می توان یافت که ضمن ارائه الگوریتمی جدید به موفقیت قابل توجه دست پیداکرده باشد. ما برای ارائه الگوریتم جدید، مدل مخفی مارکوف را با توجه به بررسی کارهای گذشته به عنوان مبنای کار خود قراردادیم. سپس با ارائه روش های مختلف تلاش کردیم درنتیجه به دست آمده توسط این روش بهبود حاصل کنیم. یکی از رو¬ش¬ها بررسی انتقال های پرتکرار و انتقال ها با درصد خطای بالا برای وضع قوانین بهبود دهنده برای آن¬ها است. تغییر نسبت وزنی فاکتورهای اصلی مدل مارکوف به دنبال یافتن نسبت بهینه بین این فاکتورها روش دیگر مورد استفاده بود، که نشان داد نسبت یک¬به¬یک بهترین انتخاب است. بررسی تأثیر نقش کلمات بعدی به جای کلمات قبلی، بر روی تعیین نقش دستوری کلمات انجام گرفت، چرا که تأثیر برچسب¬های قبل و بعد بر روی تعیین نقش دستوری کلمات برای هر زبان قابل توجه است. نتیجه به دست آمده 96.89 درصد است. برچسب¬گذاری دو مرحله¬ای با استفاده از دسته¬بندی اولیه برچسب¬ها روشی است که می¬تواند کیفیت نتیجه را بهبود دهد هرچند نتیجه کمی آن از 95.91 درصد فراتر نرفت؛ اما نقطه قوت این پایان نامه اضافه کردن فاکتورهایی مانند p(t_(i-1) |t_i ) به مدل مارکوف و پیدا کردن نسبت بهینه بین آن ها با استفاده از روش های جستجوی مختلف ازجمله الگوریتم ژنتیک است. این روش توانست با موفقیت 97.06 درصدی نتیجه¬ای بهتر از روش¬های موجود ارائه دهد.

۱۵ صفحه ی اول

برای دانلود 15 صفحه اول باید عضویت طلایی داشته باشید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

سیستم برچسب گذاری اجزای واژگانی کلام در زبان فارسی

Abstract: Part-Of-Speech (POS) tagging is essential work for many models and methods in other areas in natural language processing such as machine translation, spell checker, text-to-speech, automatic speech recognition, etc. So far, high accurate POS taggers have been created in many languages. In this paper, we focus on POS tagging in the Persian language. Because of problems in Persian POS t...

متن کامل

ارائه یک سیستم برچسب گذاری خودکار اجزای واژگانی کلام برای متون فارسی

برچسب گذاری اجزای واژگانی فرآیند انتساب دادن اجزای کلام یا واحد زبانی مناسب (فعل , اسم...) به هر کلمه در یک جمله زبان طبیعی می باشد. برچسب گذاری یک بخش مهم در پردازش زبان طبیعی می باشد و برای بسیاری از کاربرد های پردازش زبان سودمند است. برچسب گذاری اغلب اولین مرحله در پردازش زبان می باشد که پس از آن پردازش های دیگر از جمله بررسی کلمات انجام می شود. در این تز ما با استفاده از روش داده کاوی سعی د...

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

ارائه مرجعی برای کارکردهای ارتباطی زبان فارسی

تهیه ی مواد آموزشی به روز برای فراگیری زبان فارسی یکی از عمده ترین مسائل مربوط به آموزش زبان فارسی به دیگر زبانان است.در این زمینه استفاده از کارکردهای اجتماعی زبان در شرایط و موقعیت های متفاوت امری لازم است.هدف اصلی این پژوهش ارائه مرجعی برای به کارگیری کارکردها در تدوین مواد آموزشی برای فراگیران زبان فارسی است.دویست دانشجوی فارسی زبان در رشته های کارشناسی مترجمی زبان انگلیسی و کارشناسی ادبیات...

متن کامل

ارائه روشی برای بازنگری سبد سرمایه گذاری

یکی از مهم ترین نیازهای بازار سرمایه کشور، انجام مشاوره مالی، سبدگردانی و کاهش ریسک سرمایه گذاری در این بازار است. هر فرد سرمایه گذار برای داشتن یک سرمایه گذاری موفق در طول زمان نیاز به تعدیل نسبت های وزنی دارایی های مشمول در سبد دارد. برای داشتن یک فرآیند بازنگری مفید، باید عوامل مختلف تأثیر گذار همچون هزینه های معاملاتی بر بازنگری بررسی شود و در نهایت به بازنگری سبد سرمایه گذاری پرداخت. در ای...

15 صفحه اول

رویکردِ حوزهای به اجزای کلام در فارسی

در فرهنگ‌ها و کتاب‌های دستور زبان فارسی در مورد مقولۀ واژگانیِ تعدادِ قابلِ توجهی از واژه‌های این زبان از جمله مصادر، اسامی و صفاتِ گزاره‌ای و افعالِ همکرد، اتفاقِ نظر وجود ندارد و این امر می‌تواند باعثِ پدید آمدنِ مشکلاتی برای زبان‌آموزان و محققانِ این زبان شود. در نظریۀ دستورِ حوزه‌ای، زبان به حوزه‌های مستقلی تقسیم می‌شود و این حوزه‌ها ممکن است در برخی از مدخل‌های واژه‌ها با هم تطابق نداشته باشند. در ا...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده برق و کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023